【机器翻译】- 机器翻译 发展史

机器翻译历史

  • 直接转换法
    • 从源语言句子的表层出发,将单词、短语或句子直接置换成目标语言译文,必要时进行简单的词序调整。对原文句子的分析仅满足于特定译文生成的需要。这类翻译系统一般针对某一个特定的语言对,将分析与生成、语言数据、文法和规则与程序等都融合在一起。例如:I like Mary. –> Me(I) gusta(like) Maria(Mary).
      X like Y –> Y X gusta
  • 基于规则的机器翻译(Rule-based)
    • 对源语言和目标语言均进行适当描述、把翻译机制与语法分开、用规则描述语法的实现思想
    • 1954年 Georgetown 大学在 IBM 协助下,用IBM-701计算机实现了世界上第一个 MT 系统,实现俄译英翻译,1954年1月该系统在纽约公开演示。系统只有250条俄语词汇,6 条语法规则,可以翻译简单的俄语句子。
  • 统计机器翻译 SMT(-2016):
    • 1990年,IBM 提出统计机器翻译模型,机器翻译研究进入了一个空前辉煌的繁荣时期。
  • 神经机器翻译 NMT(2016-):
    • 优点:翻译更加顺畅;不需要去存储短语表,而是有着一个小规模的词汇表,这大大减小了计算的复杂度。
    • 缺点:为了能够控制计算的复杂度,有着一个固定大小的词汇表,通常会将词汇表限制在 30k 到 80k 之间,这就导致了其在翻译未登录词时有着严重的不足

主流架构

  • 基于规则的机器翻译
  • 统计机器翻译 SMT:
  • 神经机器翻译 NMT
    • 优点:翻译更加顺畅;不需要去存储短语表,而是有着一个小规模的词汇表,这大大减小了计算的复杂度。
    • 缺点:为了能够控制计算的复杂度,有着一个固定大小的词汇表,通常会将词汇表限制在 30k 到 80k 之间,这就导致了其在翻译未登录词时有着严重的不足。
## SMT时代

- 1978年欧共体启动多语言机器翻译计划; 11.1.2 机器翻译的产生与发展
- 1982 ~ 1986,日本在提出第五代机的同时,研究日英双向机器翻译系统 Mu 和亚洲多语言机器翻译(日语、汉语、印尼语、马来西亚语、泰国语);
- 1990年,IBM 提出统计机器翻译模型,机器翻译研究进入了一个空前辉煌的繁荣时期。

NMT时代

  • 2005年,Google基于统计方法的翻译系统全面超过基于规则方法的SysTran翻译系统。基于规则方法固守的最后一个堡垒被拔掉了。
  • 2016 GNMT
  • facebook FAIR在上个月刚祭出state of the art的convseq2seq
  • 谷歌全attention机器翻译模型Transformer, WMT en-de和en-fr都刷
    到了新的state of the art,而且这次不用RNN,不用CNN,只有attention